http://www.arocmag.com/article/02-2019-11-019.html 


基于 类 别 信息 和 特征 粮 的 文本 特征 权重 计算 ， 
阿 力 木 江 。 艾 沙 ab， 段 晓 雨 b， 库 尔 班 。 寿 布 力 b 李 dk 


(新 疆 大 学 a 网 络 与 信息 技术 中 心 ; b. 信息 科学 与 工程 学 院 ， 乌 鲁 木 齐 830046) 


摘 要 : 文本 向 量化 是 文本 分 类 的 基础 ， 特 征 权重 是 直接 影响 文本 向 量 表示 质量 的 重要 因素 之 一 。 基 于 类 别 信息 的 特 
征 权重 计算 方法 对 特征 与 类 别 的 关系 表达 不 够 准确 ， 即 对 于 类 别 频 率 相 同 的 特征 无 法 比较 其 对 类 别 的 区 分 能 力 ， 因 此 
要 考虑 特征 在 类 内 的 分 布 情况 。 将 特征 的 反 类 别 频 率 〈inverse category frequency, ICF) 和 类 内 (entropy) 48254 51 
入 到 特征 权重 计算 方案 中 ， 构 造 了 两 种 有 监督 特征 权重 计算 方案 。 在 维吾尔 文 文本 分 类 语 料 上 进行 的 实验 结果 表明 ， 
该 方法 能 够 明显 改善 样本 的 空间 分 布 状态 并 提高 维吾尔 文 文本 分 类 的 微 平 均 Fl 值 。 
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Feature weighting scheme based on category information and term entropy 
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830046, China) 


Abstract: Text vectorization is the basis of text classification. Feature weighting is one of the important factors that directly 


affect the quality of text vector representation. Feature weighting schemes based on category information is not accurate enough 


to express the relationship between features and categories. That is the classification ability ofthe features with the same category 


frequency can't be compared, so the distribution of the features in the category should be considered. This paper combines the 


phe inverse category frequency (ICF) and inner category entropy of the features into the term weight calculation, and constructs two 


supervised feature weighting schemes. The experimental results on the Uygur text categorization dataset showed that this method 


can obviously improve the spatial distribution of the samples and improve the micro average F1 value of the Uygur text 
classification. 
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征 对 分 类 的 作用 变 得 更 加 显著 B]。 因 此 ， 特 征 权 重 计算 对 文本 
在 文本 分 类 中 ， 首 先 将 自然 语言 文本 转换 成 一 种 计算 机 能 ” 分 类 起 着 至 关 重 要 的 作用 。 特 征 权 重 计算 是 文本 分 类 领域 的 而 
够 处 理 的 内 部 表示 形式 ， 分 类 器 才能 “理解 ”文本 内 容 并 进行 。 究 热 点 之 一 的。 
分 类 操作 。 这 个 过 程 叫做 文本 向 量化 或 文本 表示 。 目 前 ， 向 量 
空间 模型 (vector spase model, VSM) 仍然 是 主流 的 文本 表示 1 ”相关 研究 工作 
方法 。 在 VSM 中 , 文本 被 表示 为 在 特征 空间 d = {w ,ww } 文本 分 类 中 的 权重 计算 方案 来 自 于 信息 检索 Cinformation 
中 的 一 个 向 量 , 其 中 为 特征 集 的 大 小 。 特征 权 重 w 表示 特征 retrieval, IR) 领域 。 其 中 最 有 名 的 tfidf (term frequency and 
t, 在 文本 d 中 的 重要 程度 。 特 征 权重 计算 方法 经 常 影响 分 类 器 inverse document frequency) 算法 在 IR 中 获得 了 很 大 的 成 功 。 
的 效率 。 文献 [1] 指 出 特征 权重 方案 的 选择 很 大 程度 上 影响 分 类 ” 正 因为 #idf 在 IR 中 的 成 功 , 研究 人 员 将 tfidf 原封 不 动 的 在 文 
器 分 类 精度 。 因 为 ， 一 个 好 的 特征 权重 方案 会 给 每 一 个 被 选 的 。” ”本 分 类 任务 中 使 用 。 而 且 在 很 多 文本 分 类 任务 中 , 把 tidf 作为 
特征 项 指定 一 个 合理 的 权重 。 默认 的 权重 方案 在 使 用 .也 有 一 些 新 的 改进 方案 被 提出 。 最 早 ， 
文本 特征 的 权重 综合 反映 了 该 特征 对 标识 文本 内 容 的 贡献 ”Debole 和 Sebastianilg 针 对 文本 分 类 任务 提出 了 一 种 构造 有 监 
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督 特 征 权 重 计算 方案 的 方法 ， 就 是 用 特征 选择 


函数 Y 、 信 息 


增益 (information gain, IG) 和 增益 率 (gainratio, GRO 来 替换 
tidf 算法 中 的 idf 项 ,文献 [7] 将 tfidf 和 IG 相 结 合 ,改进 了 tidf 
方案 。Lan Æ ABEE J tfrf (term frequency and relevance 
frequency). 并 改进 了 英文 文本 分 类 的 表现 。 该 方案 只 考虑 了 相 
关 文本 ， 而 忽略 特征 在 非 相 关 文本 中 的 分 布 情况 。 不 过 ， 它 们 


阿 力 木 江 。 艾 小， 等 : 全 个 其 于 ， 
内 分 布 情 况 。 
若菜 一 个 特征 词 在 类 内 分 布 越 均 匀 ， 则 该 词 越 能 代表 该 
类 ， 具 有 较 高 的 类 别 区 分 能 力 ， 它 在 该 类 别 的 所 有 文档 中 都 应 
当 被 赋 给 更 大 的 权重 。 相 反 ， 如 果 某 个 特征 词 仅 在 类 内 少数 几 
个 文本 中 集中 出 现 ， 则 该 特征 词 不 能 很 好 地 代表 该 类 别 ， 特 征 
词类 别 区 分 能 力 低 ， 应 该 分 配 较 低 的 权重 。 通 过 分 析 可 知 ， 类 
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在 英文 标准 语料库 上 实验 结果 显示 ， tf.rf 方法 表现 出 比 其 他 有 


监督 特征 权重 方案 (如 :大 logOR、 矿 y’ 、 太 ig) 和 传统 方案 (如 : 


tidf、 f) 更 好 地 性 能 。 除 此 之 外 , 文献 [9] 提 出 了 一 种 基于 概率 
的 有 监督 特征 权重 方案 叫做 prob. 方案 并 改进 了 针对 非 平衡 数 
据 集 的 文本 分 类 性 能 。 文 献 [10] 针 对 问题 分 类 提出 了 三 种 新 的 
有 监督 权重 方案 并 在 方案 中 用 到 了 icf 因子 。 文 献 [11] 提 出 了 基 
于 道 类 空间 密度 频率 Cinverse class space density frequency , 

ICSDF) 的 两 个 新 的 特征 权重 计算 方法 tf* ICSDF 和 ICSDF- 
pased。 该 方法 相 比 传统 的 特征 加 权 方 法 ( prob-based. tficf 和 
icf-based) 能 够 有 效 地 提升 文本 分 类 性 能 。 文 献 [12] 提 出 了 平均 
反 类 别 频率 的 概念 考虑 了 特征 在 不 同 词 频 下 的 局 部 类 别 频率 。 

但 反 类 别 频率 算法 只 关注 特征 是 否 在 类 别 内 出 现 过 ， 并 不 考虑 
特征 在 该 类 别 内 出 现 的 文本 中 的 分 布 情况 ， 夸 大 了 类 内 低频 文 
档 对 分 类 的 作用 ， 这 是 大 部 分 引入 icf 因子 算法 的 局 限 性 。 
本 文 对 维吾尔 文 文本 分 类 中 的 特征 权重 计算 问题 进行 了 研 
究 。 针对 已 有 的 基于 icf 的 特征 权重 计算 方法 的 局 限 性 ,本文 将 
特征 的 反 类 别 频 率 (inverse category frequancy，icf) MÆ A K 
引入 到 已 有 的 特征 权重 计算 方案 中 ， 构 造 了 两 种 有 监督 特征 权 
重 计算 方案 。 采 用 本 文 方案 和 已 有 的 权重 方案 在 维吾尔 文 文本 
分 类 数据 集 上 进行 实验 测试 ， 并 分 析 了 实验 结果 。 
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将 反 类 别 频率 (inverse category frequency, icf) AUBEAERS 
引入 到 文本 分 类 中 的 特征 权重 计算 中 。 


Category frequency(cf): 类 别 频率 是 指 特征 f; 出 现 的 类 别 数 ; 


Inverse category frequency(icf): 反 类 别 频率 icf 的 计算 公式 
和 idf 类 似 ， 如 下 公式 所 示 : 


p l8 

icf (t,) = Ib( da FX 

|IC| 为 训练 集中 的 类 别 总 数 。 

在 特征 权重 计算 中 引入 iof 是 基于 这 样 的 一 个 假设 : 特征 
万 出 现 的 类 别 数 越 少 ， 它 携带 的 类 别 信息 量 就 越 大 。 这 个 假设 
被 叫做 icf 假设 ， 其 在 类 别 级 上 侧重 于 中 低频 特征 而 仰 止 高 频 
特征 。 但 是 ，icf 因子 只 考虑 特征 在 类 间 的 分 布 情况 ， 但 并 没有 
考 上 特征 在 每 一 类 内 的 分 布 情况 。 比如 ， 一 个 特征 集中 出 现在 
某 个 类 别 中 的 极 少 数 几 个 文本 中 ， 那 么 这 个 特征 不 能 很 好 的 代 
表 这 个 类 ， 应 该 给 它 分 配 较 小 的 权重 。 所 以 还 要 考虑 特征 的 类 


其 中 ， 


能 代表 该 类 。 


TEE f; 在 类 Ci PHIR te (term entropy). 定义 为 


led ff (t. d, 
if (t; M 
ja f (t c.) 


tft, dy) 
tf (1;,c,) 


te(t;, c, ) = 


|e] 


tfc) = 26,4) 


RE: tf (dy) 为 特征 ft 在 ci 类 中 的 第 个 文本 中 出 现 的 频 
数 , | e, | 表示 Ci 类 中 的 文本 总 数 , 矿 ( ,ck ) 表示 特征 I 在 Ck 
类 文本 中 出 现 的 总 频数 。 


`~ 


可 以 看 出 , 当 特 征 词 t 在 类 别 c, 中 的 每 个 文本 中 都 出 现时 ， 


UK 


特征 词 仅 在 类 别 中 的 


te(t;, c, ) 值 取 最 大 值 , 分 类 能 力 最 强 ; 


某 一 个 文本 中 集中 出 现时 ,fe(1;, c.) 值 取 最 小 值 , 分 类 能 力 最 


88. AE, fe(f;, c, ) 很 好 地 反映 了 特征 词 在 类 内 的 分 布 情况 ， 


且 其 值 与 特征 的 类 别 区 分 能 力 呈 正比 。 
根据 以 上 的 分 析 ， 我 们 将 icf 因子 和 te 因子 引入 到 特征 权 
重 计 算 中 并 提出 两 个 新 的 特征 权重 计算 方案 : tficfte 和 


tf.rf.icf.te o 
a) ficfte 方案 的 计算 公式 如 下 : 
lc 


If icf telt, d;c) — tf (t; d nip 


yay € ,cb 与 tfidf 相 比 ， 


E 
都 是 在 文档 这 个 级 别 上 进行 估算 。 而 在 ticfte 中 ，#f 因子 是 在 
文档 级 别 上 ，icf 因子 是 在 类 别 级 别 上 进行 计算 的 ，te 因子 是 衡 
量 特征 在 类 内 的 分 布 情况 。 

) trficfte 方案 的 计算 方法 如 下 : 


)xIb(l4- dl )xtelti,c) 其 中 : a 


If rf icf telt;, d j,c,) m FE) 


-if (t, d ,)xIb(2+ 


为 在 正 类 中 出 现 特 征 的 文本 数量 ,c 为 在 负 类 中 出 现 特征 去 的 


文本 数量 。 可 以 看 出 tfrficfte 方案 包含 四 个 因子 ，tf 是 原始 特 
TES, rf 因子 则 衡量 特征 t 在 正 相 关 类 别 和 负 相 关 类 别 之 间 的 


i 
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分 布 情况 , 而 zc/ 因子 是 衡量 特征 


万 在 各 类 别 之 间 的 分 布 情况 ， 


(MicroF1 值 )。 


合 伟 期 刊 ， 
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3.3 实验 结果 
te 因子 是 衡量 特征 在 类 内 的 分 布 情况 。 首先 ， 采 用 idf tfrf I tficfte, tfrficf.te 四 种 特征 加 权 
本 文 从 维 召 尔 文 文本 数据 集中 选择 四 个 特征 词 “wsw?” 方法 对 数据 集中 的 文本 特征 并 且 对 加 权 后 的 样本 空 
Cf), ess" (EFE "58" GA FUGA DIR "ej" CICERO, 间 分 布 进行 详细 的 比较 。 然 后 ， 通 过 对 使 用 tfidf、 tff. tficf.te 
分 别 采用 四 种 权重 计算 方案 计算 四 个 特征 词 的 权重 ， 以 考察 比 和 tfrficfte 四 种 特征 HR Naive Bayes, KNN, 
较 四 种 权重 计算 方案 的 效果 。 前 两 个 特征 词 是 跟 “ 体 育 ” 类 有 Centroid 和 SVM 四 个 常用 分 类 器 的 分 类 性 能 比较 分 析 , 评价 所 
关 ， 而 后 两 个 特征 词 是 跟 “ 文 艺 ” 类 有 关 。 表 1 和 2 分 别 显示 。” 用 四 种 特征 权重 计算 方法 的 效果 。 
的 是 不 同 两 个 类 别 上 的 特征 词 权重 计算 结果 实验 1 采用 tfidf、 frf. tficfte 和 tfrficfte 权重 计算 方案 
表 1 五 种 权重 计算 方案 在 “体育 ”类 上 的 计算 结果 加 权 的 样本 空间 分 布 比较 实验 
pdf fief (fof ticfte trficf te 不 同 的 权重 计算 方法 ， 对 数据 在 样本 空间 中 的 分 布 有 着 不 
(Polya 1.027 2.023 2. 616 0. 614 0. 771 同 的 影响 。 也 就 是 说 ， 加 权 方 式 改变 了 样本 空间 的 分 布 。 为 了 
Was 0.992 1.994 2.257 0.709 0. 793 更 好 地 考察 本 文 提出 的 权重 计算 方案 能 不 能 有 效 改善 样本 空间 
(58) 1.723 3.107 1.217 0.023 0. 044 的 分 布 状态 以 及 更 好 地 跟 已 有 的 权重 计算 方法 进行 比较 ， 本 文 
(2) pls 1.204 1.635 1.314 0.048 0. 055 在 维吾尔 文 文本 数据 集 Ucorp A 上 ， 采 用 传统 的 tfidf 方法 和 
42 五 种 权重 计算 方案 在 “文艺 ”类 上 的 计算 结果 较 新 的 tfrf 方法 与 fficfte 和 tfrficfte 权重 计算 方法 进行 比较 
fid — dficf Yr ticfte trficfte 实验 。 
Wolas 1.027 2.023 1.048 0.216 0. 114 对 维吾尔 文 文本 数据 集 Ucorp_A， 按 如 下 步骤 进行 实验 : 
(Waisbsp — 0.992 1.994 1.016 0.036 0. 096 a) 对 数据 集 进行 预 处 理 , 首先 , 识别 单词 、 删 除 停 用 词 及 非 
(DEDE 1.723 3.107 4.107 0.521 0. 667 维吾尔 文字 符 、 对 字符 数 低 于 3 和 高 于 24 的 维吾尔 文 单词 进 
(2) lj 1.204 1.635 3.886 0.443 0. 527 行 过 滤 、 过 滤 掉 矿 值 小 于 3 的 单词 ， 然 后 ， 对 剩 下 的 单词 进行 
在 表格 中 ， 每 个 特征 词 后 面 括号 里 的 数字 代表 该 特征 词 的 词 干 提取 ， 最 后 形成 原始 特征 项 集合 ; 


cf 值 。 从 表 1 和 表 2 中 可 以 看 到 ， 当 用 qridf fif KRN 
重 时 ， 四 个 特征 词 在 两 个 不 同类 别 上 的 权重 值 是 一 样 的 。 这 是 
因为 这 两 个 特征 权重 方案 不 考虑 正 相 关 和 负 相 关 类 别 ， 而 只 考 
虑 特征 的 全 局 特性 Cidf 和 icf)。 当 用 tfrf、 tficfte 和 tfrficfte 
来 计算 权重 时 ， 这 三 种 方案 能 够 在 两 个 类 别 中 正确 地 区 分 四 个 
特征 词 。 值 得 注意 的 是 ， 特 征 词 “小 >” 的 类 别 频率 为 1， 也 就 
是 说 , 该 特征 词 只 有 在 “文艺 ”这 一 类 中 出 现 。 当 分 别 用 tficfte 
和 tf.rf-icfte RERNE, ELE” Kp, REW li” KA 
重 比 “体育 ”类 中 的 权重 值 分 别 从 0.023 和 0.044 增 大 到 了 0.521 
和 0.667， 增 幅 较 大 。 


3 ”实验 及 分 析 


3.1 数据 集 

本 文 实验 选用 维吾尔 文 文 本 数据 集 Ucorp A, Ucorp A 是 
平衡 数据 集 (Balanced Dataset), 包括 政治 、 经 济 、 体育 、 旅游 、 
教育 、 文 艺 、 法 制 、 农 业 、 医 药 保健 和 计算 机 等 10 个 类 别 ， 每 
个 类 别 有 300 篇 文本 ，2/3 用 于 训练 ，1/3 用 于 测试 。 
3.29 评价 标准 
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